131 research outputs found

    Fouille de données de santé

    Get PDF
    Dans le domaine de la santé, les techniques d’analyse de données sont de plus en plus populaires et se révèlent même indispensables pour gérer les gros volumes de données produits pour un patient et par le patient. Deux thématiques seront abordées dans cette présentation d'HDR.La première porte sur la définition, la formalisation, l’implémentation et la validation de méthodes d’analyse permettant de décrire le contenu de bases de données médicales. Je me suis particulièrement intéressée aux données séquentielles. J’ai fait évoluer la classique notion de motif séquentiel pour y intégrer des composantes contextuelles, spatiales et sur l’ordre partiel des éléments composant les motifs. Ces nouvelles informations enrichissent la sémantique initiale de ces motifs.La seconde thématique se focalise sur l’analyse des productions et des interactions des patients au travers des médias sociaux. J’ai principalement travaillé sur des méthodes permettant d’analyser les productions narratives des patients selon leurs temporalités, leurs thématiques, les sentiments associés ou encore le rôle et la réputation du locuteur s’étant exprimé dans les messages

    Motifs Séquentiels Discriminants pour les puces ADN

    Get PDF
    National audienceDécouvrir de nouvelles informations sur les groupes de gènes impliqués dans une maladie est un véritable challenge. Les puces ADN sont des outils puissants pour l'analyse des expressions de gènes. Elles mesurent l'expression de milliers de gènes dans différentes conditions biologiques. Dans cet article, nous proposons une nouvelle approche mettant en évidence des relations d'ordre entre les expressions de gènes. Tout d'abord, nous extrayons des motifs séquentiels qui peuvent être utilisés comme matériel d'étude par les biologistes. Or, comme la densité des bases issues des puces à ADN rend difficile l'extraction de ces motifs, nous introduisons une source de connaissances pendant le processus de fouille. De cette manière, l'espace de recherche est réduit et les résultats obtenus sont plus pertinents d'un point de vue biologique. Les expérimentations sur des données réelles soulignent la pertinence de notre proposition

    Mining microarray data to predict the histological grade of a breast cancer

    Get PDF
    BACKGROUND: The aim of this study was to develop an original method to extract sets of relevant molecular biomarkers (gene sequences) that can be used for class prediction and can be included as prognostic and predictive tools. MATERIALS AND METHODS: The method is based on sequential patterns used as features for class prediction. We applied it to classify breast cancer tumors according to their histological grade. RESULTS: We obtained very good recall and precision for grades 1 and 3 tumors, but, like other authors, our results were less satisfactory for grade 2 tumors. CONCLUSIONS: We demonstrated the interest of sequential patterns for class prediction of microarrays and we now have the material to use them for prognostic and predictive applications

    Prédiction du grade d'un cancer du sein par la découverte de motifs séquentiels contextuels dans des puces à ADN

    Get PDF
    National audienceLe cancer du sein reste de nos jours un problème de santé majeur et un véritable défi pour les biologistes et les professionnels de santé. Les puces à ADN permettent aujourd'hui d'étudier selon un jour nouveau les problématiques associées à cette maladie. Dans cet article, nous proposons de traiter les données issues des puces à ADN par le biais de l'extraction de motifs séquentiels contextuels (séquences de gènes ordonnés selon leur niveau d'expression associées à un contexte). L'objectif est de proposer une aide au diagnostic du grade d'une tumeur. Notre approche tient à la fois compte de l'information contenue dans les puces à ADN (exprimée par le biais de motifs séquentiels), mais également d'informations additionnelles d'ordre contextuel (e.g., âge du patient, taille de la tumeur, etc.) et qui sont associées aux données de puces à ADN lorsque celles-ci sont publiées en ligne. L'approche proposée a été évaluée sur des données réelles

    Discovering Novelty in Gene Data : From Sequential Patterns to Visualization

    Get PDF
    International audienceData mining techniques allow users to discover novelty in huge amounts of data. Frequent pattern methods have proved to be efficient, but the extracted patterns are often too numerous and thus difficult to analyse by end-users. In this paper, we focus on sequential pattern mining and propose a new visualization system, which aims at helping end-users to analyse extracted nowledge and to highlight the novelty according to referenced biological document databases. Our system is based on two visualization techniques: Clouds and solar systems. We show that these techniques are very helpful for identifying associations and hierarchical relationships between patterns among related documents. Sequential patterns extracted from gene data using our system were successfully evaluated by two biology laboratories working on Alzheimers disease and cancer

    Extraction de motifs spatio-temporels à différentes échelles avec gestion de relations spatiales qualitatives

    Get PDF
    ISBN : 978-163266234-7National audienceGeoreferenced databases contain a huge volume of temporal and spatial data. They are notably used in environmental analysis. Several works address the problem of mining those data, but none are able to take into account the richness of the data and especially their spatial and temporal dimensions. In this paper, we focus on the extraction of a new kind of spatiotemporal patterns which consider the relationship between spatial objects and also various geographical scales. We propose an algorithm, STR_PrefixGrowth, which can be applied on a huge amont of data. The proposed method is evaluated on hydrological data collected on the Saône basin during the last 19 years. Our experiments emphasize the contribution of our approach toward the existing methods.Les bases de données géoréférencées contiennent un important volume de données temporelles et spatiales. Elles sont par exemple particulièrement utilisées dans le cadre d'analyses environnementales. Plusieurs méthodes ont été proposées pour l'exploration de telles bases de données, mais aucune ne permet d'exploiter toute la richesse des données, en particulier leurs dimensions spatiales et temporelles. Dans cet article, nous introduisons un nouveau type de motifs spatio-temporels considérant les relations entre objets spatiaux mais aussi les différentes échelles géographiques. Nous proposons un algorithme d'extraction de motifs STR_PrefixGrowth applicable sur un important volume de données. Nous traitons un exemple de données hydrobiologiques collectées sur le bassin de la Saône durant les 19 dernières années. Les expérimentations menées soulignent l'intérêt de notre méthode par rapport aux méthodes existantes

    La confiance est dans l'air ! Application à l'identification des parcours hospitaliers

    Get PDF
    National audienceL'extraction de motifs séquentiels permet d'identifier les séquences fréquentes d'événements ordonnés. Afin de résoudre le problème du grand nombre de motifs obtenus, nous proposons l'extension pour les motifs séquentiels de la confiance, mesure d'intérêt utilisée classiquement pour sélectionner les règles d'association. Dans cet article, après avoir présenté les données, nous définirons formellement la notion de confiance appliquée aux motifs séquentiels. Nous appliquerons cette mesure pour identifier des trajectoires hospitalières, représentées par les motifs séquentiels, dans des données issues du PMSI (Programme de Médicalisation des Systèmes d'Information). Nous nous sommes focalisés sur un cas d'étude hospitalière : l'infarctus du myocarde (IM), et notamment la prédiction de la trajectoire des patients ayant eu un IM entre 2009 et 2013. Les résultats obtenus ont été soumis à un spécialiste pour discussion et validation

    A Spatial-based KDD Process to Better Understand the Spatiotemporal Phenomena

    Get PDF
    International audienceIn this paper, we present a knowledge discovery process ap- plied to hydrological data. To achieve this objective, we combine succes- sive methods to extract knowledge on data collected at stations located along several rivers. Firstly, data is pre processed in order to obtain different spatial proximities. Later, we apply two algorithms to extract spatiotemporal patterns and compare them. Such elements can be used to assess spatialized indicators to assist the interpretation of ecological and rivers monitoring pressure data

    SequencesViewer : comment rendre accessible des motifs séquentiels de gènes trop nombreux ?

    Get PDF
    National audienceLes techniques d'extraction de connaissances ppliquées aux gros volumes de données, issus de l'analyse de puces ADN, permettent de découvrir des connaissances jusqu'alors inconnues. Or, ces techniques produisent de très nombreux résultats, difficilement exploitables par les experts. Nous proposons un outil dédié à l'accompagnement de ces experts dans l'appropriation et l'exploitation de ces résultats. Cet outil est basé sur trois techniques de visualisation (nuages, systèmes solaire et treemap) qui permettent aux biologistes d'appréhender de grandes quantités de motifs séquentiels (séquences ordonnées de gènes)
    corecore